atunci termenul de regularizare este pur și simplu ^(ц w || ) , unde || || reprezintă norma vectorului de greutate Pentru coborârea gradientului, trebuie doar să adăugați aw la vectorul de gradient MSE (ecuația ) Înainte de a efectua regresia de creastă, este important să scalați datele (să zicem, cu ), deoarece este sensibil la scara de caracteristicile de intrare Acest lucru este valabil pentru majoritatea modelelor regularizate Figura prezintă mai multe modele de creasta antrenate pe unele date liniare folosind diferite valori x Pentru funcțiile de cost care nu au un nume scurt, se obișnuiește să se folosească notația /(Ѳ) ; vom folosi această notație frecvent în capitolele rămase ale cărții Contextul va clarifica ce funcție de cost este discutată Normele au fost discutate în Capitolul I, Fundamentele învățării automate, concluzia, modelele ridge au fost aplicate caracteristicilor rezultate: acesta este un regresie polinomială cu regularizarea crestei Observați cum creșterea duce la predicții mai netede (adică, mai puțin marginale, mai raționale); ca urmare, varianța modelului crește, dar părtinirea acestuia scade Ca și în cazul regresiei liniare, putem efectua regresia de creastă, fie calculând ecuația prin efectuarea coborârii în gradient Pro și contra sunt aceleași În ecuație (unde A este ( dentity malrix) și x și cu excepția zero în celula din stânga sus corespunzătoare termenului de compensare) Ѳ = (xr-x + aa)-xr-y Iată cum să efectuați regresia crestei cu Scikit-Learn folosind soluție în (o variantă a ecuației folosește metoda de descompunere a matricei André-Louis Cholesky): Ridge ridge reg = Ridge (alph;= , solver= ) ridge reg fit( , y) edic ; ]) ([ ]) diagonala principală (sus stânga la dreapta jos) Alternativ, puteți utiliza clasa Ridge cu solve- (media stocastică G ) este o variație a SGD Pentru mai multe detalii, consultați prezentarea „Minimizarea sumelor finite cu S tochastic Average Gradient Algorithm” de Mark Schmidt et al de la Universitatea din Columbia Britanică Capitolul Modele de antrenament | Hiperparametrul setează tipul de termen de regularizare de utilizat Specifică faptul că doriți ca algoritmul SGD să adauge un termen de regularizare egal cu o jumătate de pătrat din norma vectorului de greutate la funcția de cost: aceasta este pur și simplu regresia de creastă , numită simplu , reprezintă o altă versiune regularizată a regresiei liniare: la fel ca regresia de creastă, adaugă un termen de regularizare la funcția de cost, dar în loc de un al doilea pătrat al normei vectorului de greutate, folosește norma vectorului de greutate (ecuația ) ДѲ) = MSE + a I |Ѳ, | Figura arată la fel ca în Figura , dar modelele de creastă sunt înlocuite cu modele lasso și se aplică valori mai mici a = o = = - - - I -i -! -i - * * Partea I Fundamentele învățării automate O caracteristică importantă a regresiei lasso este aceea că tinde să elimine complet ponderile celor mai puțin importante caracteristici (adică le setează la zero) De exemplu, linia punctată din graficul din dreapta din Fig (c a - IO- ) arată pătratică, aproape liniară: toate ponderile pentru caracteristicile polinomiale de grad înalt sunt zero Cu alte cuvinte, regresia lasso efectuează automat selecția și ieșirea caracteristicilor (adică, cu un număr mic de greutăți ale caracteristicilor diferite de zero) Puteți înțelege de ce este așa cu ajutorul Fig: din stânga sus grafic, contururile de fundal (elipsele) reprezintă o funcție de cost MSE neregularizată (a = ), iar cercurile albe arată calea BGD cu această funcție de cost numai penalizare (a -> °°) Observați cum drumul ajunge mai întâi la = , după care se rostogolește pe jgheab până ajunge la Ѳ = În graficul din dreapta sus, contururile reprezintă aceeași funcție de cost plus buc grafic - Minimul global este pe axa t - Calea BGD ajunge mai întâi la t = și apoi se rostogolește în jos până ajunge la minimul global Capitolul Antrenarea modelelor Cele două diagrame inferioare arată același lucru, dar folosesc în schimb o penalizare Regularizat minim mai aproape de t = decât minimul neregulat, dar greutățile nu sunt complet eliminate Cu funcția de cost de regresie lasso, calea BGD tinde să oscileze de-a lungul jgheabului spre sfârșit Motivul este că la t = panta se schimbă brusc într-adevăr converge la minimul global, trebuie să reduceți treptat rata de învățare Funcția de cost de regresie lasso nu este diferențiabilă pentru v, = (pentru i = , , , u), dar coborârea gradientului funcționează bine dacă folosiți în schimb atunci când Ѳ, = Ecuația arată ecuația vectorială -subgradient care poate fi utilizată pentru coborârea gradientului cu semnul funcției de cost de regresie lasso (flj g( J) = VV MSE + un semn (Ѳ ) unde semnul (^) semn (Q - if Ѳ Mai jos este un mic exemplu Scikit-Learn care folosește clasa Rețineți că ați putea folosi ]) argau în schimb ( [ este punctul de mijloc dintre regresia crestei și regresia lasso Termenul de regularizare este pur și simplu un amestec de Puteți reprezenta un sub -vector de gradient într-un punct nediferențiabil ca vector intermediar între vectorii de gradient din jurul acelui punct , iar la r - este echivalent cu lasso-regresia (ecuația ) n , n I(Ѳ) - MSE + ga I |Ѳ | + -L-G a £ i= /= Deci, când ar trebui să utilizați regresia liniară simplă (adică fără nicio regularizare), regresia crestei, regresia lasso sau rețeaua elastică? Aproape întotdeauna este de preferat să aveți cel puțin o anumită regularizare, așa că, în general, ar trebui să evitați să utilizați regresia liniară simplă Regresia creastă este o opțiune implicită bună, dar dacă credeți că doar câteva caracteristici vor fi de fapt utile, ar trebui să preferați regresia lasso sau elastică rețea , deoarece, așa cum sa discutat deja, ele tind să scadă ponderile caracteristicilor inutile la zero În general, o rețea elastică este de preferat regresiei lasso, deoarece regresia lasso poate funcționa intermitent atunci când numărul de caracteristici este mai mare decât numărul de mostre de antrenament , sau unele caracteristici sunt strâns legate Iată un exemplu scurt folosind clasa > din Scikit-Learn (corespunde cu raportul de amestec) https://neculaifantanaru com/en/qualities-of-a-leader-absolute-devotion html O modalitate complet diferită de a regulariza algoritmii de învățare iterativă, cum ar fi coborârea gradientului, este de a opri antrenamentul de îndată ce eroarea de validare atinge un minim Această tehnică se numește ( arly stoppiti ) Figura prezintă un model complex (în acest caz, un polinom de grad înalt model de regresie) în timpul antrenamentului folosind batch Gradient Descent Pe măsură ce epocile trec, algoritmul învață și eroarea de predicție (RMSE) Capitolul Modele de antrenament | pe setul de antrenament scade în mod natural, la fel și eroarea de predicție pe setul de validare Cu toate acestea, după un timp, eroarea de validare încetează să mai scadă și revine efectiv la creștere deoarece eroarea de validare a atins un nivel minim Acest truc de regularizare este atât de simplu și eficient încât Geoffrey Hinton l-a numit „marele prânz gratuit” negativ Partea I Fundamentele antrenamentului Machine Learning și funcția de cost Ok, acum știți cum un model de regresie logistică evaluează probabilitățile și face predicții Dar cum îl antrenați? Scopul învățării este de a stabili un vector de parametri astfel încât modelul să producă estimări sub formă de probabilitate mare pentru eșantioanele pozitive (y = ) și probabilitate scăzută pentru eșantioanele negative (y = ) Această idee este încorporată în funcția de cost dată în ecuație, pentru un singur eșantion de antrenament x - log(p) dacă y - , c(Ѳ) = - log ( - p) dacă y = Această funcție de cost are sens deoarece -log(t) crește foarte lent pe măsură ce se apropie , deci costul va fi mare, dacă modelul estimează o probabilitate apropiată de pentru un eșantion pozitiv și acestea vor fi, de asemenea, supradimensionate dacă modelul estimează o probabilitate apropiată de pentru un eșantion negativ Pe de altă parte, -log(t) este aproape de când este aproape de , deci costul va fi aproape de dacă probabilitatea estimată este aproape de pentru un eșantion negativ, sau aproape de pentru un eșantion pozitiv, ceea ce este exact ceea ce ne dorim Funcția de cost pe întregul set de antrenament este pur și simplu costul mediu peste tot eșantioane de antrenament Poate fi scrisă și ca o singură expresie (pe care o puteți verifica cu ușurință) numită ( os ), așa cum se arată în ecuația ^ “ ^(,))| Vestea proastă este că nu există o ecuație cunoscută care să minimizeze o astfel de funcție de cost (nu există un echivalent cu ecuația normală) Dar vestea bună este că funcția de cost este convexă, deci coborârea gradientului (sau orice alt algoritm de optimizare) este garantat găsirea minimului global (dacă rata de învățare nu este prea mare și așteptați suficient de mult) Derivatele parțiale ale funcției de cost în raport cu parametrul lea al modelului au forma prezentată în ecuație Ecuația arată foarte asemănătoare la ecuație: pentru fiecare probă, calculează eroarea de prognoză și o înmulțește cu valoarea caracteristicii j-a, apoi calculează media tuturor eșantioanelor de antrenament Având în vedere un vector gradient care conține toate derivatele parțiale, îl puteți utiliza într-un lot algoritm de coborâre a gradientului Deci acum știi cum să antrenezi un model de regresie logistică Pentru coborârea gradientului stocastic, desigur, luați doar o probă la un moment dat și pentru coborârea gradientului în mini-lot, utilizați un mini-lot la un moment dat Pentru a demonstra cum funcționează regresia logistică, vom folosi setul de date iris Acesta este faimosul set de date care conține lungimile și lățimile sepale și petale de flori de iris trei specii diferite: irisul peri (iris setosa), irisul multicolor (iris versicolor) și irisul virginian (iris virginica) (Fig ) : O list( ()) ['date', target names' , nume caracteristici', țintă', DESCR'] = [:,:] # lățimea petale = ( [ ] == ) : ( ) # dacă irisul # este virgin, în caz contrar O Acum antrenează un Model de regresie logistică: = i : () Partea I Noțiuni de bază ale învățării automate Să aruncăm o privire la probabilitățile estimate ale modelului pentru florile a căror lățime a petalelor variază de la la centimetri (p u X new = np linspace( , , ) reshape y proba = log reg predict proba(X new) plt plot(X nc , y proba[:, ], , label= ) plt plot(X new, y proba[:, ], , label= ) # + cod Matplotlib suplimentar pentru a îmbunătăți imaginea Fotografii reproduse din paginile Wikipedia respective Fotografie cu iris virginiana de Frank Mayfield (Creative Commons BY-SA ( /)), fotografie cu iris multicoloră de D Gordon & Robertson (Creative Commons BY-SA (ht )), iar fotografia lui Iris bristly este în domeniul public Modele de formare în capitole | Lățimea petalelor irisului virginiana (reprezentată prin triunghiuri) variază de la la cm, în timp ce florile altor tipuri de iris (reprezentate prin pătrate) au, de obicei, o lățime a petalei mai mică, variind de la la cm Rețineți că există o suprapunere clasificatorul este destul de încrezător în faptul că floarea este un iris virginiana (oferă o probabilitate mare de a face parte din această clasă), în timp ce mai jos, vezi că este foarte încrezător că floarea nu este un iris virginiana (probabilitate mare de a face parte din clasa " Not iris virginiana”) Între contrariile indicate, clasificatorul nu are nicio certitudine Cu toate acestea, dacă îi cereți să prezică o clasă (folosind metoda mai degrabă decât ), atunci va returna orice clasă ca cea mai probabilă Prin urmare, aproape de cm există , unde ambele probabilități sunt : dacă lățimea petalei este mai mare de cm, atunci clasificatorul va prezice că floarea este un iris virgin și altfel nu irisul Virginian (deși nu este foarte sigur): ([ , [ și) aggau ( ) Figura arată același set de date, dar de data aceasta cu două caracteristici afișate: lățimea și lungimea petalei Odată antrenat, un clasificator bazat pe regresia logistică poate estima probabilitatea ca o nouă floare să fie un iris Virginia pe baza celor două caracteristici menționate limita este liniară Fiecare linie paralelă reprezintă punctele în care modelul oferă o probabilitate specifică, de la (stânga jos) la (dreapta sus) Conform modelului, toate florile de deasupra liniei din dreapta sus au mai mult de șanse de a fi Iris virginiana Similar altor modele liniare, modelele de regresie logistică pot fi regularizate cu penalități sau De fapt, Scitkit-Learn adaugă o penalizare implicită Reprezintă un set de puncte astfel încât ecuația Ѳ+ ^ + Ѳ x = să fie valabilă, care definește o linie dreaptă Partea I Fundamentele învățării automate și inversul său: Cu cât valoarea lui , cu atât este mai regularizat modelul Modelul de regresie logistică poate fi generalizat pentru a suporta mai multe clase direct, fără a fi nevoie de antrenament și combinare a mai multor clasificatori binari (așa cum s-a discutat în capitolul ) Rezultatul este , sau Ideea este destul de simplă: având în vedere un eșantion x, un model de regresie logistică multivariabilă calculează mai întâi suma scorurilor s^(x) pentru fiecare clasă și apoi estimează probabilitatea fiecărei clase prin aplicarea sumelor scorurilor , numită și funcție Ecuația pentru calcularea s^(x) ar trebui să pară familiară, deoarece este exact aceeași ca și pentru predicția (ecuația) de regresie liniară sfc(x) = (^)rx Rețineți că fiecare clasă are propriul său vector de parametri separat calculând suma scorurilor fiecărei clase pentru eșantionul x, putem estima probabilitatea pfc ca eșantionul să aparțină clasei x prin rularea sumelor scorurilor prin funcție logistică multivariabilă (ecuația calculează exponentul fiecărei sume de puncte și apoi le normalizează (prin împărțirea la suma tuturor exponenților) Pk = Figura arată funcția de decizie care corespunde modelului din dreapta din figură : aceasta este un plan bidimensional, deoarece setul de date are două caracteristici (lățimea frunzei și lungimea lobului) Granița de decizie este mulțimea de puncte în care este funcția de decizie: aceasta este intersecția a două plane, care este o linie dreaptă (reprezentată printr-o linie continuă groasă) În general, atunci când există caracteristici, funcția de decizie este -dimensională și limita de decizie - (și - )-dimensional hiperplan Partea I Fundamentele învățării automate Liniile punctate reprezintă punctele în care funcția de decizie este egală cu sau - : sunt paralele și la aceeași distanță de granița de decizie, formând un decalaj în jurul acesteia Pregătirea unui clasificator SVM liniar înseamnă găsirea unor astfel de valori w și , care să facă acest decalaj cât mai mare posibil, evitând în același timp încălcări gap (hard gap) sau limitarea lor (soft gap) Obiectiv de învățare Se consideră panta funcției de decizie: este identică cu norma vectorului de greutate, ȘI w|| Dacă împărțim panta cu , atunci punctele în care funcția de decizie este ± vor fi de două ori mai departe de limita de decizie Cu alte cuvinte, împărțirea pantei cu va înmulți decalajul cu Poate că acest lucru este mai ușor de imaginat în D din Fig Cu cât vectorul de greutate este mai mic w cu atât decalajul este mai mare Deci vrem să maximizăm || w || pentru a obține un decalaj mare Totuși, dacă dorim și să evităm orice încălcare a decalajului (avem un decalaj strâns), atunci trebuie ca funcția de decizie să fie mai mare pentru toate eșantioanele de antrenament pozitive și mai mică pentru eșantioanele de antrenament negative Dacă definim £ pentru toate probele Prin urmare, putem exprima scopul unui clasificator liniar SVM cu un decalaj strâns ca sarcina în ecuația Ț de a minimiza -w w w, b în condiția No w, care este echivalentă cu ^|| w || , în loc să minimizeze || w || Motivul este că aceasta va da același rezultat (deoarece valorile lui w și b care minimizează o anumită valoare minimizează și jumătate din pătratul său), dar ^|| w | | are o derivată potrivită și simplă (și anume w), în timp ce nu este diferențiabilă pentru w = Algoritmii de optimizare funcționează mult mai bine cu funcții diferențiabile Pentru a atinge obiectivul unui decalaj ușor, trebuie să introducem (b) > o pentru fiecare eșantion : măsoară cât de mult i-a eșantion poate să încalce decalajul Acum avem două obiective contradictorii: să facem variabilele fictive cât mai mici posibil pentru a reduce încălcările decalajului și să facem w cât mai mic posibil pentru a lărgi decalajul Aici intervine hiperparametrul: ne permite să determinăm decalajul compromis între aceste două obiective Obținem problema de optimizare condiționată reprezentată de ecuația Zeta (() este a șasea literă a alfabetului grecesc, Partea I Fundamentele învățării automate *' * minimize —w^-w+C £ w ,b,( i=l dat f (wT x + bj > - pentru i =l, , ,m Programare pătratică Problemele hard gap și soft gap sunt probleme de optimizare pătratică convexe cu constrângeri liniare Rezolvatori standard care folosesc o varietate de tehnici, al căror studiu depășește domeniul de aplicare al acestei cărți Ecuația oferă o declarație generală a problemei minimizării P în condiția |pTHp + fTp A p pentru i = , , , , m solver QP), folosind ecuația, puteți calcula w și b, care minimizează problema directă directă, atunci când numărul de eșantioane de antrenament este mai mic decât numărul de caracteristici Mai important, trucul nuclear devine posibil, în timp ce este imposibil atunci când rezolvați problema directă Deci, ce este acest truc nuclear? DTD Să presupunem că doriți să aplicați o transformare polinomială de gradul doi unui set de antrenament D (cum ar fi ) și apoi să antrenați un clasificator liniar SVM pe setul de antrenament transformat II) Rețineți că vectorul transformat este D, nu D Să vedem ce se întâmplă ca un rezultat Capitolul Suport Vector Machines | aplicarea unei astfel de mapări polinomiale de gradul doi la o pereche de vectori bidimensionali, a și b, și calculul produsului scalar al vectorilor transformați (ecuația ) + «^ Cum vă place? Produsul scalar al vectorilor transformați este egal cu pătratul produsului scalar al vectorilor originali: (a) (b) = (a b) Acum pentru punctul: dacă aplicați transformarea tuturor probelor de antrenament, atunci problema duală (vezi ecuația) va conține produsul scalar (x ^) (x^^) Dar dacă este o transformare polinomială de gradul doi definită în ecuație, atunci puteți înlocui acest produs scalar al vectorilor transformați cu doar x(') x^| Deci nu este nevoie să transformi deloc mostrele de antrenament: trebuie doar să înlocuiți produsul punctual din ecuație cu pătratul său Rezultatul este exact același ca și cum nu ați fi prea leneș să transformați efectiv setul de antrenament și apoi să vă potriviți ceva algoritm SVM liniar dar un astfel de truc face ca întregul proces să fie mult mai eficient din punct de vedere computațional Aceasta este esența trucului nucleului Funcția K(a, b) = (a b) se numește gradul doi În învățarea automată este o funcție care este capabilă să calculeze produsul scalar (a) (b) numai pe baza vectorilor originali a și b, fără a fi nevoie să se calculeze transformarea (sau chiar să cunoască despre ea) Ecuația listează cele mai comune nuclee învățarea Polinom liniar Gaussian RBF Sigmoidal Conform K(a, b) = am b K (a, b) = (yat b + r)d K(a, b) = exp (-y || a - b | | ) K(a, b) = tanh(yar b + r) ) dacă funcția X(a, b) satisface mai multe condiții matematice numite ( trebuie să fie continuă, simetrică în argumentele sale, astfel încât X(a, b) - X(b, a) și așa mai departe), atunci există o funcție care mapează a și b unui alt spațiu (posibil cu o dimensiune mult mai mare), astfel încât K (a, b) = f(a) m (b) Deci îl poți folosi ca nucleu pentru că știi ce există chiar dacă nu știi ce este spațiu non-dimensional, așa că e bine că nu trebuie să faci efectiv maparea! Trebuie remarcat faptul că unele nuclee utilizate în mod obișnuit (cum ar fi nucleul sigmoid) nu respectă toate condițiile lui Mercer, dar, în general, funcționează bine în practică Mai este o problemă de rezolvat clasificatorul liniar SVM, dar dacă aplicați truc kernel, ajungi cu ecuații care includ (x(z)) - De fapt, w trebuie să aibă același număr de dimensiuni ca (x(z))> care poate fi gigantic sau chiar infinit, deci nu vei fi capabil să-l calculeze Dar cum poți face predicții fără să știi w? Vestea bună este că puteți conecta formula pentru w din ecuație într-o funcție de rezolvare pentru noul eșantion x^ și puteți obține o ecuație cu numai produse punctiforme între vectorii de intrare Acest lucru face din nou posibilă trucul nucleului (ecuația) Suport capitol Mașini vectoriale | = î â^^dx^\ + b = > O Rețineți că, deoarece φ este doar pentru vectorii suport, efectuarea de predicții implică calcularea produsului scalar al noului vector de intrare x^ numai cu vectorii suport și nu cu toți eșantioane de antrenament Desigur, trebuie să calculați și termenul de părtinire b folosind același truc (ecuația ) Dacă vă doare capul, atunci este perfect normal: acesta este un efect secundar nefericit al trucului nucleului Înainte de a închide capitolul, să luăm o privire rapidă la clasificatorii dinamici SVM (rețineți că învățarea dinamică înseamnă învățarea treptată, de obicei pe măsură ce sosesc noi eșantioane) Pentru clasificatoarele SVM liniare, o metodă implică aplicarea coborârii gradientului (de exemplu, folosind ) pentru a minimiza funcția de cost din ecuație, care este derivat din problema directă Din păcate, converge mult mai lent decât metodele bazate pe QP Partea I Fundamentele învățării automate J(w, b) = w + C £ max^O, - /'^wT + bjj Prima sumă din funcția de cost va forța modelul să aibă un vector de greutate mică w, rezultând un decalaj mai mare A doua sumă numără numărul total de încălcări ale decalajului sau altfel proporțională cu distanța până la partea corectă a benzii Minimizarea acestui termen asigură că modelul va încălca decalajul puțin și rar Funcția max( , - ) se numește și este prezentată mai jos , dacă t Bucla funcția nu este diferențiabilă pentru t = dar la fel ca regresia lasso (vezi secțiunea „Regresia lasso” din capitolul ) puteți aplica totuși coborârea gradientului folosind orice când t = (adică orice valoare între - și ) I max( > - ) t Este, de asemenea, posibil să implementați dinamică redusă parametric Metode SVM - de exemplu, ghidate de lucrările „Învățare SVM incrementală și decrementală” sau „Clasificatoare rapide reduse parametric cu „Învățare automată a vectorului de suport incremental și decrementar” dinamic („Învățare automată a vectorului de suport incremental și decremental”), J Kofenbergs, T Poggio (Anul) Capitolul Suport Vector Machines | și învățarea activă” Cu toate acestea, ele sunt implementate în Matlab și C++ Pentru probleme neliniare la scară largă, puteți lua în considerare utilizarea rețelelor neuronale (vezi partea II) Care este ideea fundamentală din spatele mașinilor vector suport? Ce este un vector suport? De ce este important să scalați mostrele de intrare atunci când utilizați metode SVM? Poate clasificatorul SVM să producă o măsură a încrederii atunci când clasifică un eșantion? Ce zici de probabilitate? Ce formă a problemei SVM - primară sau duală - ar trebui să utilizați pentru a antrena un model pe un set de antrenament cu milioane de mostre și sute de caracteristici? Să presupunem că antrenezi un clasificator SVM cu un nucleu RBF Se pare că nu este prea antrenat pe setul de antrenament: ar trebui să crești sau să scazi ? Despre ce poți spune? Cum ar trebui să setați parametrii QP (H, f, A și b) pentru a rezolva problema clasificatorului liniar SVM soft-gap utilizând soluția QP disponibilă? Antrenați un clasificator pe un set de date separabil liniar Apoi antrenați clasificatorii și eu pe același set de date Vedeți dacă îi puteți determina să producă aproximativ aceleași modele Antrenați un clasificator SVM pe setul de date MNIST unul împotriva tuturor” Puteți decide să ajustați hiperparametrii folosind un mic set de validare pentru a accelera procesul Ce precizie poți obține? Antrenați un regresor SVM folosind un set de date care conține prețurile caselor din California Soluțiile pentru exercițiile de mai sus sunt disponibile în Anexa A, „Clasificatori rapidi de nucleu cu învățare online și activă ” A Bord, S Ertekin, D Weston, L Bott ( y ) Part I Fundamentele învățării automate CAPITOLUL Arborele de decizie Asemenea mașinilor vector de suport sunt algoritmi de învățare automată de uz general care pot face față problemelor de clasificare și regresie, inclusiv probleme cu ieșiri multiple Sunt algoritmi foarte puternici, capabili să se potrivească la seturi de date complexe Pentru De exemplu, în capitolul ați antrenat un model i pe un set de date care conține prețurile caselor din California, potrivindu-l frumos (de fapt supraadaptând) Arborele de decizie sunt, de asemenea, componente fundamentale ale pădurilor aleatorii (vezi capitolul ), care sunt printre cei mai puternici algoritmi ML disponibili astăzi Ziua În acest capitol, vom începe prin a discuta despre cum să antrenăm, să vizualizăm și să facem predicții folosind arbori de decizie Apoi, ne vom uita la algoritmul de învățare CART utilizat de biblioteca Scikit-Learn și, de asemenea, vom descoperi cum să regularizăm arborii și să le aplicăm problemelor de regresie În cele din urmă, vom arunca o privire la câteva limitări ale arborilor de decizie Pentru a înțelege arborii de decizie, să construim un astfel de arbore și să vedem cum face predicții Următorul cod antrenează D ^cisionTreeC La si: ier clasificator pe setul de date iris (vezi capitolul): load iris DecisionTreeClassifier iris = lo iris dat :] # lungimea și lățimea lobului y = iris arborele țintă clf = DecisionTreeClassifier(max de;>th= ) tree c f fit( , y) Puteți vizualiza un arbore de decizie antrenat utilizând mai întâi o metodă pentru a scoate fișierul de definire a diagramei după nume :=True =True Puteți apoi converti acest fișier în diferite formate, cum ar fi PDF sau PNG, folosind instrumentul din linia de comandă din ! Următoarea comandă convertește fișierul într-un fișier imagine: $ dot -Tpng iris tree dot -o iris tree png Primul arbore de decizie arată ca cel prezentat în Figura Acesta este un pachet software de vizualizare a diagramelor cu sursă deschisă disponibil în Partea I Noțiuni de bază Învățare automată Să aflăm cum face predicții arborele din figura Să presupunem că găsiți o floare de iris și doriți să o clasificați Începeți de la nodul rădăcină (adâncime, sus): nodul rădăcină vă întreabă dacă lungimea petalei florii este mai mică de cm ? Dacă este mai puțin, atunci coborâți la nodul copil din stânga al nodului rădăcină (adâncime, stânga) În acest caz este (adică nu are copii), așa că nu pune întrebări: puteți doar să vă uitați la clasa prezisă pentru nodul dat, iar arborele de decizie prezice că floarea ta este un iris strâns Acum imaginați-vă că găsiți o altă floare, dar de data aceasta lungimea petalei este mai mare de cm Trebuie să coborâți la nodul copil din dreapta al nodului rădăcină ( adâncime , dreapta), care nu este cu frunze, așa că pune o nouă întrebare: lățimea petalelor florii este mai mică de cm? Dacă mai puțin, atunci este foarte probabil ca floarea ta să fie un iris multicolor (adâncime, stânga), iar dacă nu, atunci un iris virginiana (adâncime, dreapta) Într-adevăr, totul este atât de simplu Una dintre multele calități ale arborilor de decizie este că necesită absolut puțină pregătire a datelor În special, nu au nevoie deloc de scalare sau centrare a caracteristicilor Atributul nod numără la câte mostre de antrenament este aplicat De exemplu, mostrele de antrenament au o lungime a petalei mai mare de cm (adâncime, dreapta), printre care probele au o lățime a petalei mai mică de cm (adâncime, stânga) Atributul unui nod spune la câte mostre de antrenament din fiecare clasă se aplică acest nod: de exemplu, nodul din dreapta jos se aplică probelor de iris bristly, mostră de iris versicolor, iar mostrele de iris virginiana În sfârșit, atributul (Gini) nodului îi măsoară : un nod este „curat” dacă toate mostrele de antrenament la care se aplică aparțin aceleiași clase Spune, caută Singurul nod la adâncime din stânga se aplică doar mostrelor de antrenament de iris, este curat și Gini este egal cu capitolul Arbori de decizie | Ecuația arată modul în care algoritmul de învățare calculează Gini pentru nodul i De exemplu, nodul de la adâncimea din stânga are un Gini egal cu - - - , * k = p, g este proporția eșantioanelor de clasă dintre eșantioanele de antrenament din nodul lea Biblioteca Scikit-Learn folosește algoritmul CART, care eliberează doar no") Cu toate acestea, alți algoritmi precum ID pot produce arbori de decizie cu noduri care au mai mult de doi copii Figura arată limitele de decizie pentru acest arbore de decizie Linia groasă verticală reprezintă limita de decizie a nodului rădăcină (adâncime): lungimea petalei = cm Deoarece zona din stânga pură (doar irisul peri), nu poate fi împărțit în continuare Cu toate acestea, regiunea dreaptă este poluată și, prin urmare, nodul de la adâncimea din dreapta o desparte la lățimea petalei = cm (reprezentată prin linia întreruptă) Deoarece hiperparametrul a fost setat la , arborele de decizie se oprește chiar aici , dacă setați la , atunci fiecare dintre cele două noduri la adâncime va adăuga mai multe limite de decizie (reprezentate prin linii punctate) Prin urmare, pădurile aleatorii sau rețelele neuronale sunt în cele mai multe cazuri considerate ca Ei fac predicții excelente și puteți verifica cu ușurință calcule care sunt efectuate pentru a produce predicții; cu toate acestea, este de obicei dificil de explicat în termeni simpli de ce au fost făcute astfel de predicții De exemplu, dacă o rețea neuronală raportează prezența unei anumite persoane într-o fotografie, este dificil de știut ce a contribuit de fapt la această predicție: a făcut modelul recunosc ochii acelei persoane? Gura lui? Nasul lui? Pantofii lui? Sau chiar canapeaua pe care stătea? În schimb, arborii de decizie oferă reguli de clasificare simple și îngrijite care pot fi aplicate chiar și manual dacă este necesar (de exemplu, pentru a clasifica flori) Un arbore de decizie este, de asemenea, capabil să estimeze probabilitatea ca un eșantion să aparțină unei anumite clase: în primul rând, arborele este străbătut pentru a găsi un nod de frunză pentru un eșantion dat și apoi returnează proporția de eșantioane de antrenament de clasă la nodul găsit De exemplu, să presupunem că găsiți o floare cu petale cm lungime și cm lățime Nodul frunzei corespunzător este la un adâncime la stânga, astfel încât arborele de decizie ar trebui să producă următoarele probabilități: , pentru iris varicolor și pentru iris virginia Și, desigur, dacă propuneți să preziceți clasa, arborele de decizie ar trebui să producă iris varicolor (clasa), deoarece are cea mai mare probabilitate Să verificăm ce s-a spus: tree clf predict proba tree clf predict Capitolul Arbori de decizie Grozav! Rețineți că probabilitățile estimate vor fi identice oriunde altundeva în dreptunghiul din dreapta jos din figură - de exemplu, dacă petalele ar avea cm lungime și cm lățime (deși pare evident că în acest caz floarea ar avea o probabilitate mare de a fi un iris virginiana) Pentru a antrena copaci (numiți și copaci „în creștere”), biblioteca Scikit-Learn folosește un algoritm ( t - Ideea este de fapt destul de simplă: algoritmul împarte mai întâi setul de antrenament în două subseturi folosind o singură caracteristică și un prag (de exemplu, „lungimea frunzei unde nodul M — S ?' z "' nodul adică nodul Y nodul Ca și în cazul problemelor de clasificare, arborii de decizie sunt predispuși la supraadaptare atunci când se ocupă cu probleme de regresie prezentate în stânga în figură Aici, supraadaptarea extrem de puternică de către setul de antrenament este evidentă O configurare simplă are ca rezultat mult mai rațional modelul prezentat în dreapta în fig Fără restricții probe minime leaf= Partea I Fundamentele învățării automate Sperăm că până acum sunteți convins că arborii de decizie au multe virtuți: sunt ușor de înțeles și interpretat, ușor de utilizat, versatili și puternici Cu toate acestea, există câteva limitări asociate cu acestea Înainte În general , după cum probabil ați observat, arborii de decizie preferă limitele de decizie dreptunghiulare (toate împărțirile sunt perpendiculare pe o axă sau alta), ceea ce îi face sensibili la rotațiile setului de antrenament De exemplu, figura prezintă un set de date simplu separabil liniar: în stânga, un arbore de decizie se poate împărți cu ușurință, în timp ce în dreapta, după rotirea setului de date cu °, granița de decizie pare inutil sinuoasă Deși ambii arbori de decizie sunt potriviți perfect setului de antrenament, este foarte probabil ca modelul din dreapta să nu fie generalizați bine O modalitate de a limita această problemă este utilizarea metodei PCA ( Analiza componentelor principale componente externe; vezi capitolul ), ceea ce are ca rezultat o mai bună orientare a datelor de antrenament O problemă comună cu arborii de decizie este că sunt foarte sensibili la mici modificări ale datelor de antrenament De exemplu, dacă eliminați pur și simplu eșantionul pentru cel mai larg iris multicolor din set de antrenament petale cm lungime și cm lățime) și antrenați un nou arbore de decizie, puteți obține modelul prezentat în Fig După cum puteți vedea, arată foarte diferit de arborele de decizie anterior (vezi Fig ) Capitolul b Arbori de decizie | De fapt, deoarece algoritmul de învățare folosit de Scikit-Learn este stocastic, puteți obține modele foarte diferite chiar și pe aceleași date de antrenament (cu excepția cazului în care setați un hiperparametru) După cum veți vedea în capitolul următor, pădurile aleatorii pot limita această instabilitate prin medierea predicțiilor pentru mulți arbori Care ar fi adâncimea aproximativă a unui arbore de decizie antrenat (neconstrâns) pe un set de antrenament cu un milion de mostre? Este impuritatea Gini a unui nod de obicei mai mică sau mai mare decât cea a nodului său părinte? Este mai mic/mai mare sau mai mic/mai mare? Dacă arborele de decizie este reantrenat de setul de antrenament, atunci este o idee bună să scadă h? Dacă arborele de decizie nu se potrivește cu setul de antrenament, atunci este o idee bună să scalați caracteristicile de intrare? Selectează aleatoriu un set de caracteristici de evaluat la fiecare nod Partea I Fundamentele învățării automate Dacă este nevoie de o oră pentru a antrena un arbore de decizie pe un set de antrenament care conține un milion de mostre, atunci aproximativ cât timp va dura pentru a antrena un alt arbore de decizie pe un set de antrenament care conține milioane de mostre? Dacă setul dvs de antrenament conține mostre, va accelera procesul de antrenament prin instalare? Antrenați și ajustați arborele de decizie pentru setul de date a) Generați setul de date folosind b) Împărțiți-l în set de antrenament și set de testare folosind c) Folosiți căutarea în rețea de validare încrucișată (folosind clasa ), pentru a găsi valori bune de hiperparametru pentru Sugestie: încercați diferite valori pentru d) Antrenați arborele de decizie pe setul complet de antrenament folosind valorile hiperparametrului găsite și măsurați performanța modelului pe setul de testare Ar trebui să obțineți corectitudine de la pe cale de a crea o pădure a) Continuând exercițiul anterior, generați subseturi ale setului de antrenament, fiecare conținând eșantioane selectate aleatoriu Sugestie: puteți utiliza clasa din Scikit-Learn pentru a face acest lucru b) Antrenați un arbore de decizie pentru fiecare subset folosind au găsit valori de hiperparametru set Deoarece acești arbori de decizie au fost antrenați pe seturi mai mici, este probabil ca aceștia să aibă performanțe mai slabe decât primul arbore de decizie, dând o corectitudine de aproximativ Capitolul b Arbori de decizie | c) Acum este timpul pentru magie Pentru fiecare probă din setul de testare, generați predicții prin arbori de decizie și stocați doar predicția cea mai frecventă (puteți folosi o funcție de la SciPy pentru aceasta) Aceasta vă oferă pe setul de testare d) Evaluați-le predicții pe setul de test: ar trebui să obțineți o precizie puțin mai bună decât primul model (mai mare de la aproximativ la ) Felicitări, ați antrenat un clasificator de pădure aleatoriu! Soluțiile la exerciții sunt disponibile în Anexa A, Partea I, Fundamentele învățării automate agregați prognozele unui grup de prognozatori (cum ar fi clasificatori sau regresori), veți obține adesea prognoze mai bune decât prognoza de la cel mai bun prognozator individual Grupul de prognozatori se numește ; în consecință, tehnica se numește ( eap ), iar algoritmul de învățare a ansamblului se numește ( metoda nsemble) De exemplu, puteți antrena un grup de clasificatori pe baza arborilor de decizie, folosind un subset aleatoriu diferit al setului de antrenament pentru fiecare Pentru a genera previziunile, obții doar predicțiile tuturor arborilor individuali și prezici clasa care a câștigat cele mai multe voturi (vezi ultimul exercițiu din capitolul ) Un astfel de ansamblu de arbori de decizie se numește (rând: ) și, în ciuda simplității sale, este unul dintre cei mai puternici algoritmi de învățare automată disponibili astăzi În plus, așa cum sa menționat în capitol, veți folosi adesea metode de ansamblu spre sfârșitul unui proiect, când au fost deja construiți mai mulți predictori buni, pentru a le combina într-un predictor și mai bun faimos se referă la meciul Netflix x Premiul ) În acest capitol, vom discuta despre cele mai populare metode de ansamblu, inclusiv și o serie de altele Explorăm, de asemenea, păduri aleatorii Să presupunem că ați antrenat mai mulți clasificatori și fiecare dintre ei oferă corectitudine despre (Figura ) Clasificator de regresie logistică Clasificator SVM Clasificator de pădure aleatoare Alți predictori diverși O modalitate foarte simplă de a crea o metodă și mai bună clasificatorul este de a agrega predicțiile tuturor clasificatorilor și de a prezice clasa care obține cele mai multe voturi , dar un anumit clasificator de vot obține adesea o precizie mai bună decât cel mai bun clasificator din ansamblu De fapt, chiar dacă fiecare clasificator este , adică este doar puțin mai bine decât ghicitul aleatoriu, atunci ansamblul poate fi în continuare , oferind o acuratețe ridicată, cu condiția să existe destui cursanți slabi și să fie suficient de diversi Următoarea analogie poate arunca lumină asupra acestui mister: Să presupunem că aveți o monedă ușor deformată, care are o -a șansă de a cădea pe față (capete) și o a șansă pe spate (cozi) Dacă o aruncați o dată, veți obțineți un total de aproximativ capete și cozi, și astfel majoritatea capetelor Trecând la matematică, veți descoperi că probabilitatea de a obține cele mai multe capete după aruncare este aproape de Cu cât aruncați o monedă mai mult, cu atât este mai mare această probabilitate (să zicem, la aruncări) , probabilitatea depășește bara) Acest lucru se datorează ( legii numerelor mari): pe măsură ce aruncarea monedelor continuă, fracția capetelor se apropie din ce în ce mai mult de probabilitatea capetelor Figura prezintă o serie de aruncări ale unei monede părtinitoare atât de aproape încât se dovedesc a fi constant mai mari În mod similar, să presupunem că construiți un ansamblu care conține clasificatori, care individual sunt corecte doar în timp (abia mai bine decât ghicitul aleatoriu) Dacă prezici clasa majoritară, poți spera să fii corect până la ! Totuși, acest lucru este adevărat numai dacă toți clasificatorii sunt complet independenți, făcând erori fără legătură, ceea ce în mod clar nu este situația noastră, deoarece au fost instruiți pe aceleași date Cel mai probabil, clasificatorii vor face erori de aceleași tipuri și, prin urmare, în multe cazuri majoritatea voturilor se acordă clasei incorecte , reducând corectitudinea ansamblului Capitolul Învățare ansamblu și păduri aleatorii | Metodele de ansamblu funcționează cel mai bine atunci când predictorii sunt cât mai independenți unul de celălalt O modalitate de a obține clasificatori diferiți este de a le antrena cu algoritmi foarte diferiți Acest lucru va îmbunătăți șansele ca aceștia să producă tipuri de erori foarte diferite, ajutând la îmbunătățirea corectitudinii ansamblului Următorul cod creează și antrenează un clasificator de vot constând din clasificatori diferiți folosind Scikit-Learn (folosind setul de date prezentat în capitolul Să aflăm corectitudinea fiecărui clasificator de pe setul de testare: Partea I Fundamentele învățării automate Regresia logistică RandomForestClassifier SVC VotingClassifier Ai reușit! Un clasificator votat depășește ușor toți clasificatorii individuali Dacă toți clasificatorii sunt capabili să estimeze probabilitățile de clasă (adică au o metodă), atunci îi puteți spune Scikit-Learn să prezică clasa cu cea mai mare probabilitate de clasă mediată pe toți clasificatorii individuali Aceasta se numește Se realizează adesea mai eficient decât votul greu, deoarece acordă mai multă greutate voturilor cu încredere ridicată Tot ce trebuie să faceți este să schimbați și să vă asigurați că clasificatorii sunt capabili să estimeze probabilitățile de clasă În mod implicit, această opțiune nu este acceptată în clasă, așa că trebuie să setați hiperparametrul său la Adevărat (ceea ce va face ca clasa să folosească validarea încrucișată pentru a estima probabilitățile clasei, încetinind învățarea și adăugați o metodă) Dacă modificați codul anterior pentru a utiliza votul ușor, veți descoperi că clasificatorul de vot obține corectitudine peste ! După cum tocmai am discutat, o modalitate de a obține seturi de clasificatori diferiți este de a folosi algoritmi de învățare foarte diferiți O altă abordare este să folosiți același algoritm de învățare pentru fiecare predictor, dar antrenați predictorii pe diferite subseturi aleatorii ale setului de antrenament Metoda se numește (baggin - prescurtare de la „Bagging Predictors”, L Breiman (an) Chapter Ensemble Learning and Random Forests | ing from )) Când se efectuează eșantionarea, această metodă se numește sau Cu alte cuvinte, bagajul și inserarea permit eșantionarea probelor de antrenament mai multe de mai multe ori de către mulți predictori, dar numai bagajul permite eșantionarea eșantioanelor de antrenament de mai multe ori de către același predictor Procesul de eșantionare și antrenament este prezentat în eșantionul din Fig , pur și simplu prin agregarea predicțiile tuturor predictorilor Funcția de agregare este de obicei pentru clasificare (predicția cea mai frecventă, la fel ca și clasificatorul greu votat) sau media pentru regresie Fiecare predictor individual are o părtinire mai mare decât dacă ar fi fost antrenat pe set original de antrenament, dar agregarea reduce atât părtinirea, cât și varianța În statistică, reeșantionarea cu înlocuire (retracție) se numește „Lipirea de voturi mici pentru clasificare în baze de date mari și on-line”, L Breiman (an) Prejudecățile și varianța au fost introduse în Capitolul I , Partea I, Fundamentele învățării automate În general, rezultatul cumulativ este că ansamblul are o părtinire similară, dar mai puțină varianță, decât un singur predictor antrenat pe setul de antrenament original În Figura , ați văzut că toți predictorii pot fi antrenați în paralel, prin diferite nuclee de procesor, sau chiar diferite servere La fel, o pereche Predicțiile pot fi, de asemenea, făcute bine Acesta este unul dintre motivele pentru care inserarea în ambalaj și inserarea sunt metode atât de populare: se scalează foarte bine Biblioteca Scikit-Learn oferă un API simplu ca clasă pentru inserare și inserare (sau pentru regresie) Codul de mai jos antrenează un ansamblu din clasificatoare bazate pe arbori de decizie, fiecare s-a antrenat pe instanțele de antrenament selectate aleatoriu din setul de antrenament cu înlocuire (un exemplu de inserare, dar dacă doriți să utilizați inserția, atunci doar setați ) Parametrul îi spune lui Scikit-Learn numărul de nuclee de procesor de utilizat pentru antrenament și predicție (- indică participarea tuturor nucleelor ​​disponibile): ; S- ( O, : = , =True, i = ) -f p: Lct(X test) Clasa efectuează automat votul soft în loc de votul hard dacă clasificatorul de bază poate estima probabilitățile clasei (adică dacă are o metodă), așa cum este cazul clasificatorilor arborelui de decizie Alternativ, parametrul poate fi setat la un float între și , caz în care numărul maxim de eșantioane care trebuie eșantionate este egal cu dimensiunea setului de antrenament înmulțit cu Chapter Ensemble Learning and Random Forests | Figura compară limitele de decizie ale unui singur arbore și ale unui ansamblu de arbori în sac (creați de codul anterior) antrenați pe setul de date După cum puteți vedea, predicțiile ansamblului sunt susceptibile să se generalizeze mult mai bine decât predicțiile unui singur arbore de decizie: ansamblul are comparabile prejudecată, dar varianță mai scăzută (face aproximativ aceeași cantitate de erori pe setul de antrenament, dar frontiera de decizie este mai puțin neregulată) Bootstrapping introduce ceva mai multă diferență în subseturile pe care este antrenat fiecare predictor și, astfel, împachetarea se termină cu un ușor prejudecată mai mare decât inserarea, dar asta înseamnă, de asemenea, că predictorii vor fi mai puțin dependenți unul de celălalt, reducând varianța ansamblului În general, punerea în pungă duce adesea la modele mai bune, motiv pentru care este de obicei preferată Cu toate acestea, cu timpul liber și puterea de calcul, puteți aplica validarea încrucișată pentru a introduce și lipi scorurile și selectați sub mișcarea care funcționează cel mai bine Cu împachetare, unele eșantioane pot fi selectate de mai multe ori pentru orice predictor dat, în timp ce altele pot să nu fie selectate deloc În mod implicit, clasa eșantioane de antrenament cu înlocuire ( Truc), unde este dimensiunea setului de antrenament Aceasta înseamnă că pentru fiecare predictor va fi selectat Partea I Fundamentele învățării automate media doar despre eșantioanele de antrenament Eșantioanele de antrenament rămase care nu sunt selectate se numesc eșantioane (- ) Rețineți că astfel de eșantioane nu sunt aceleași pentru toți predictorii Deoarece predictorul nu vede niciodată eșantioanele în timpul antrenamentului, pot fi evaluate pe eșantioane fără a fi nevoie de un set de validare separat sau de validare încrucișată Puteți evalua ansamblul însuși făcând o medie a scorurilor fiecărui predictor Când este instanțiat în Scikit-Learn, puteți seta True pentru a solicita automat punctaj după antrenament Trucul este demonstrat în următorul cod Valoarea estimată a evaluării este disponibilă prin variabila: Conform evaluării, este cel mai probabil ca clasificatorul să atingă corectitudinea pe setul de testare Să verificăm: am obținut corectitudinea pe setul de testare - destul de aproape! Funcția de decizie pentru fiecare eșantion de antrenament este disponibilă și prin intermediul unei variabile În acest caz (deoarece estimatorul de bază are o metodă ) funcția de decizie returnează probabilitățile de clasă pentru fiecare eșantion de antrenament - la clasa negativă): Odată cu creștere, această proporție abordări - exp(-I) = Capitolul Ansamblu de învățare și păduri aleatorii | Clasa acceptă, de asemenea, eșantionarea caracteristicilor Procesul este condus de doi hiperparametri: și aceștia funcționează în același sens ca , dar sunt pentru eșantionarea caracteristicilor, nu eșantionarea eșantionului Astfel, fiecare predictor va fi antrenat pe un subset aleatoriu de caracteristici de intrare Acest lucru este deosebit de util atunci când aveți de-a face cu date de intrare cu dimensiuni mari (cum ar fi imagini) Eșantionarea mostrelor de antrenament și a caracteristicilor simultan se numește metoda Păstrați toate eșantioanele de antrenament (adică False și ), dar caracteristicile de eșantionare (adică Adevărat și/sau mai puțin) se numește Metoda Eșantionarea oferă o diferență și mai mare a predictorilor prin schimbul unei părtiniri puțin mai mari cu o varianță scăzută S-a menționat deja că o pădure aleatorie este un ansamblu de arbori de decizie care sunt de obicei antrenați printr-o metodă de însacare (sau uneori de inserție), de obicei cu parametrul setat la dimensiunea setului de antrenament „Ansambluri op Random Patches” („Ansambluri pe parcele aleatorii”), J Lupp și P Ger (an) „Metoda subspațială aleatorie pentru construirea pădurilor de decizie”, Tin Kam Ho (an) „Păduri de decizie aleatorie” („Pădurea de decizie aleatorie”), T Ho (an) Partea I Fundamentele învățării automate În loc să construiți o instanță și să o transmiteți instanței, puteți utiliza clasa , care este mai convenabilă și mai optimizată pentru arbori de decizie (în mod similar, există o clasă pentru probleme de regresie) Codul prezentat mai jos antrenează un clasificator bazat pe o pădure aleatoare cu copaci (fiecare limitat la un maxim de noduri) folosind toate nucleele de procesor disponibile: lungimea sepalului (cm) lățimea sepalului (cm) lungimea petalei (cm) lățimea petalei (cm) În mod similar, dacă antrenați un clasificator bazat pe pe o pădure aleatoare folosind setul de date MNIST (introdus în capitolul ) și trasați semnificația fiecărui pixel, obțineți imaginea prezentată în Fig Pădurile aleatorii sunt foarte convenabile s pentru o înțelegere rapidă a caracteristicilor care contează cu adevărat, mai ales dacă trebuie să faceți selecția caracteristicilor (numită inițial ) se referă la orice metodă de ansamblu care este capabilă să combine mai mulți cursanți slabi într-un singur cursant puternic Ideea principală din spatele majorității metodelor de stimulare este de a antrena predictori secvenţial, fiecare încercând să-şi repare predecesorul Chapter Ensemble învăţare şi păduri aleatorii | I Importanță scăzută Importanță ridicată Sunt disponibile multe metode de stimulare, dar de departe cele mai populare sunt (prescurtarea de la stimularea adaptivă) și